
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。
小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。
当地时间 6 月 4 日,Windsurf CEO Varun Mohan 发帖称,在提前不到五天的通知时间里,Anthropic 切断了其几乎所有 Claude 3.x 模型的直接访问权限(first-party capacity),包括 Claude 3.5 Sonnet、3.7 Sonnet 和 3.7 Sonnet Thinking。
近日,一位 ID 名为 GpsTracker 的网友在网上爆料称,埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其“思考模式”提问时,模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。
又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。
Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!
论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。
自己「打脸」自己?
AI的运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」,揭开了它运行的一些秘密。
本文介绍了当前最受科研人员青睐的AI模型,推理出色的o3-mini、全能型DeepSeek-R1、科研常用的Llama、编程利器Claude 3.5 Sonnet和开源明星Olmo 2,它们各有优劣,为科研人员提供了多样选择。
Manus的火爆带热了多个技术概念,Computer Use Agent就是其中之一。但要探讨这种“电脑使用”智能体,还得从Claude 3.5 Sonnet说起。